در این مقاله، یک الگوریتم طبقهبندی نیمهنظارتی جمعی با استفاده از معیار انتخاب مبتنی بر آستانه امتياز اطمينان تحت عنوان SSE-CBS در محیطهای غیر ایستا ارائه میشود. رویکرد پیشنهادی از دادههای دارای برچسب و فاقد برچسب با هدف مقابله با انواع تغییر مفهوم در جریان دادهها چکیده کامل
در این مقاله، یک الگوریتم طبقهبندی نیمهنظارتی جمعی با استفاده از معیار انتخاب مبتنی بر آستانه امتياز اطمينان تحت عنوان SSE-CBS در محیطهای غیر ایستا ارائه میشود. رویکرد پیشنهادی از دادههای دارای برچسب و فاقد برچسب با هدف مقابله با انواع تغییر مفهوم در جریان دادهها استفاده میکند. SSE-CBS مکانیزم مشهور وزندهی بر اساس دقت الگوریتمهای جمعی مبتنی بر بلوک را با ماهیت افزایشی الگوریتم درخت هافدینگ تلفیق میکند. الگوریتم پیشنهادی به طور تجربی با 8 رویکرد منطبق بر جدیدترین دستاوردها، از جمله مدلهای طبقهبندی نظارتی، نیمهنظارتی، منفرد و الگوریتمهای جمعی مبتنی بر بلوک روی مجموعه دادههای متنوع مقایسه شده است. بر اساس نتایج تجربی، SSE-CBS بهترین میانگین دقت طبقهبندی را نسبت به سایر رویکردهای نیمهنظارتی داراست و قادر است در محیطهای دارای تغییر مفهوم با محدودیت داده برچسبدار عملکرد مناسبی داشته باشد.
پرونده مقاله
با توجه به سرعت روزافزون تولید اطلاعات و نیاز تبدیل اطلاعات به دانش، روشهای یادگیری ماشین قدیمی دیگر پاسخگو نیستند. هنگام استفاده از طبقهبندیها با روشهای یادگیری ماشین قدیمی، به ویژه استفاده از طبقهبندیهای ذاتاً تنبل مانند روش k- نزدیکترین همسایگی (KNN)، عملیات ط چکیده کامل
با توجه به سرعت روزافزون تولید اطلاعات و نیاز تبدیل اطلاعات به دانش، روشهای یادگیری ماشین قدیمی دیگر پاسخگو نیستند. هنگام استفاده از طبقهبندیها با روشهای یادگیری ماشین قدیمی، به ویژه استفاده از طبقهبندیهای ذاتاً تنبل مانند روش k- نزدیکترین همسایگی (KNN)، عملیات طبقهبندی دادههای حجیم بسیار کند است.
نزدیکترین همسایگی به دلیل سادگی و دقت عملی که ارائه میدهد یک روش محبوب در زمینه طبقهبندی دادهها میباشد. روش پیشنهادی مبتنی بر مرتبسازی بردارهای ویژگی دادههای آموزشی در یک درخت جستجوی دودویی است تا طبقهبندی دادههای بزرگ را با استفاده از روش نزدیکترین همسایگی تسریع بخشد. این کار با استفاده از یافتن تقریبی دو دورترین داده محلی در هر گره درخت انجام میشود. این دو داده به عنوان معیار برای تقسیم دادههای موجود در گره فعلی بین دو گروه، مورد استفاده قرار میگیرند. مجموعه دادههای موجود در هر گره بر اساس شباهت آنها به این دو داده، به فرزند چپ یا راست گره فعلی تخصیص داده میشوند. نتایج آزمایشهای متعدد انجامشده بر روی مجموعه دادههای مختلف از مخزن UCI، میزان دقت خوب با توجه به زمان اجرای کم روش پیشنهادی را نشان میدهد.
پرونده مقاله
بهکارگیری دادههای بدون برچسب در خودآموزی نیمهنظارتی میتواند به طور قابل توجهی دقت طبقهبند نظارتشده را بهبود بخشد، اما در برخی موارد ممکن است دقت طبقهبندی را به مقدار چشمگیری کاهش دهد. یکی از دلایل چنین تنزلی، برچسبگذاری اشتباه به دادههای بدون برچسب میباشد. در چکیده کامل
بهکارگیری دادههای بدون برچسب در خودآموزی نیمهنظارتی میتواند به طور قابل توجهی دقت طبقهبند نظارتشده را بهبود بخشد، اما در برخی موارد ممکن است دقت طبقهبندی را به مقدار چشمگیری کاهش دهد. یکی از دلایل چنین تنزلی، برچسبگذاری اشتباه به دادههای بدون برچسب میباشد. در این مقاله، روشی را برای برچسبگذاری با قابلیت اطمینان بالا به دادههای بدون برچسب پیشنهاد میکنیم. طبقهبند پایه در الگوریتم پیشنهادی، ماشین بردار پشتیبان است. در این روش، برچسبگذاری فقط به مجموعهای از دادههای بدون برچسب که از مقدار مشخصی به مرز تصمیم نزدیکتر هستند انجام میشود. به این دادهها، دادههای دارای اطلاعات میگویند. اضافهشدن دادههای دارای اطلاعات به مجموعه آموزشی در صورتی که برچسب آنها به درستی پیشبینی شود در دستیابی به مرز تصمیم بهینه تأثیر بهسزایی دارد. برای کشف ساختار برچسبزنی در فضای داده از الگوریتم اپسیلون- همسایگی (DBSCAN) استفاده شده است. آزمایشهای مقایسهای روی مجموعه دادههای UCI نشان میدهند که روش پیشنهادی برای دستیابی به دقت بیشتر طبقهبند نیمهنظارتی خودآموز به نسبت برخی از کارهای قبلی عملکرد بهتری دارد.
پرونده مقاله
طبقهبندی چندبرچسبی یکی از مسائل مهم در یادگیری ماشین است که کارایی الگوریتمهای این طبقهبندی با افزایش ابعاد مسأله به شدت کاهش مییابد. انتخاب ویژگی، یکی از راهکارهای اصلی برای کاهش ابعاد در مسائل چندبرچسبی است. انتخاب ویژگی چندبرچسبی یک راهکار NP Hard است و
تا کنون چکیده کامل
طبقهبندی چندبرچسبی یکی از مسائل مهم در یادگیری ماشین است که کارایی الگوریتمهای این طبقهبندی با افزایش ابعاد مسأله به شدت کاهش مییابد. انتخاب ویژگی، یکی از راهکارهای اصلی برای کاهش ابعاد در مسائل چندبرچسبی است. انتخاب ویژگی چندبرچسبی یک راهکار NP Hard است و
تا کنون تعدادی راهکار مبتنی بر هوش جمعی و الگوریتمهای تکاملی برای آن ارائه شده است. افزایش ابعاد مسأله منجر به افزایش فضای جستجو و به تبع، کاهش کارایی و همچنین کاهش سرعت همگرایی این الگوریتمها میشود. در این مقاله یک راهکار هوش جمعی ترکیبی مبتنی الگوریتم دودویی بهینهسازی ازدحام ذرات و استراتژی جستجوی محلی برای انتخاب ویژگی چندبرچسبی ارائه شده است. برای افزایش سرعت همگرایی، در استراتژی جستجوی محلی، ویژگیها بر اساس میزان افزونهبودن و میزان ارتباط با خروجی مسأله به دو دسته تقسیمبندی میشوند. دسته اول را ویژگیهایی تشکیل میدهند که شباهت زیادی به کلاس مسأله و شباهت کمتری به سایر ویژگیها دارند و دسته دوم
هم ویژگیهای افزونه و کمتر مرتبط است. بر این اساس، یک اپراتور محلی
به الگوریتم بهینهسازی ازدحام ذرات اضافه شده که منجر به کاهش ویژگیهای غیر مرتبط و افزونه هر جواب میشود. اعمال این اپراتور منجر به افزایش سرعت همگرایی الگوریتم پیشنهادی در مقایسه با سایر الگوریتمهای ارائهشده در این زمینه میشود. عملکرد روش پیشنهادی با شناختهشدهترین روشهای انتخاب ویژگی، بر روی مجموعه دادههای مختلف مقایسه گردیده است. نتایج آزمایشها نشان دادند که روش پیشنهادی از نظر دقت، دارای عملکردی مناسب است.
پرونده مقاله
در عصر کلاندادهها، تکنیکهای تجزیه و تحلیل خودکار مانند دادهکاوی بهطور گستردهای برای تصمیمگیری بهکار گرفته شده و بسیار مؤثر واقع شدهاند. از جمله تکنیکهای دادهکاوی میتوان به طبقهبندی اشاره کرد که یک روش رایج برای تصمیمگیری و پیشبینی است. الگوریتمهای طبقهب چکیده کامل
در عصر کلاندادهها، تکنیکهای تجزیه و تحلیل خودکار مانند دادهکاوی بهطور گستردهای برای تصمیمگیری بهکار گرفته شده و بسیار مؤثر واقع شدهاند. از جمله تکنیکهای دادهکاوی میتوان به طبقهبندی اشاره کرد که یک روش رایج برای تصمیمگیری و پیشبینی است. الگوریتمهای طبقهبندی بهطور معمول بر روی مجموعه دادههای متوازن بهخوبی عمل میکنند. با وجود این، یکی از مشکلاتی که الگوریتمهای طبقهبندی با آن مواجه هستند، پیشبینی صحیح برچسب نمونههای جدید بر اساس یادگیری بر روی مجموعه دادههای نامتوازن است. در این نوع از مجموعه دادهها، توزیع ناهمگونی که دادهها در کلاسهای مختلف دارند باعث نادیده گرفتهشدن نمونههای کلاس با تعداد نمونه کمتر در یادگیری طبقهبند میشوند؛ در حالی که این کلاس در برخی مسائل پیشبینی دارای اهمیت بیشتری است. بهمنظور مقابله با مشکل مذکور در این مقاله، روشی کارا برای متعادلسازی مجموعه دادههای نامتوازن ارائه میشود که با متعادلنمودن تعداد نمونههای کلاسهای مختلف در مجموعه دادهای نامتوازن، پیشبینی صحیح برچسب کلاس نمونههای جدید توسط الگوریتم یادگیری ماشین را بهبود میبخشد. بر اساس ارزیابیهای صورتگرفته، روش پیشنهادی بر اساس دو معیار رایج در ارزیابی طبقهبندی مجموعه دادههای نامتوازن به نامهای «صحت متعادل» و «ویژگی»، عملکرد بهتری در مقایسه با روشهای دیگر دارد.
پرونده مقاله